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摘 要 : 离散 二 进 制 粒子 群 算法 (BPSO) 在 各 种 离散 优化 问题 中 有 着 诸多 优势 ， 但 其 很 容易 由 于 非 线性 的 问题 陷入 局 
部 最 优 解 ， 无 法 得 到 最 佳 特 征 子 集 。 而 降 骂 自 编码 器 可 通过 多 层 非 线性 网 络 进 行 映射 与 重 构 ， 对 中 医药 数据 有 良好 的 
处 理 效果 。 因 此 提出 了 一 种 融合 降 品 自 编码 器 与 BPSO 的 特征 组 合 方法 ， 该 方法 主要 是 利用 降 骂 自 编码 器 对 特征 进行 
非 线性 映射 形成 超 完备 基 ， 然 后 在 超 完备 基 中 通过 BPSO 进行 搜索 ， 从 而 得 到 最 佳 特征 子 集 。 分 别 采用 临床 糖尿 病 数 
据 集 和 UCI 数据 集 进行 分 析 处 理 ， 实 验 结果 表明 ， 融 合 降 嗓 自 编码 器 与 BPSO 的 特征 组 合 方法 对 中 医药 临床 实验 数据 
有 较 好 的 适应 性 。 
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Application of feature combination method of denoising autoencoder and BPSO im TCM 


Huang Canyi, Du Jianqiang, Nie Bin, Zeng Qingxia, Zhu Zhipeng, Yu Fang 
(School of Computy Jiangxi University of Traditional Chinese Medicine, Nanchang 330004, China) 


Abstract: The discrete binary particle swarm optimization algorithm has many advantages in various discrete optimization 
problems, but it is very easy to fall into the local optimal solution due to the nonlinear problem, and the best feature subset 
cannot be obtained. The noise reduction self-encoder can be mapped and reconstructed through a multi-layer nonlinear network, 
which has a good effect on Chinese medicine data. This paper proposes a feature combination method of fusion noise reduction 
self-encoder and BPSO. This method mainly uses noise reduction self-encoder to perform nonlinear mapping of features to form 
super-complete basis, and then searches in super-complete basis through BPSO. To get the best feature subset. The clinical 
diabetes datasets and UCTI datasets were used for analysis and processing. The experimental results showed that the combination 
of fused-noise self-encoder and BPSO features a good adaptability to clinical experimental data of TCM. 
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(denoising autoencoder, DA) 是 由 Vincent 提出 的 一 种 改良 方法 


0 引言 G9, 在 自 编码 器 的 基础 上 对 原始 数据 加 入 噪音 ,进行 多 层 非 线 

在 中 医药 领域 的 临床 实验 数据 中 ， 大 多 呈现 出 多 成 分 、 多 ”性 网 络 学 习 , 经 过 无 监督 的 逐 层 贪心 训练 与 系统 性 的 参数 优化 ， 
靶 点 以 及 非 线性 的 特点 上 ， 且 由 于 数据 的 复杂 性 ， 特 征 之 间 存 ”从 而 能 够 提取 、 编 码 出 具有 重 棒 性 较 好 的 特征 。 文 献 [7] 提 出 了 
在 强 相关 性 和 抑 余 性 。 因 此 无 法 采用 传统 的 统计 分 析 方 法 来 闸 一 种 自 适 应 离散 粒子 群 算法 , 引入 排斥 过 程 克服 早熟 收敛 问题 ， 
述 数据 内 部 的 量 效 关 系 ， 所 以 或 需 一 种 能 够 解决 多 变量 与 非 线 。 然而 吸引 与 排斥 的 参数 设置 难以 确定 ; 文献 [8] 提 出 了 一 种 基于 
性 问题 的 数据 分 析 方 法 ， 为 科研 工作 者 提供 技术 支撑 。 SVM-RFE-BPSO 算法 的 特征 选择 方法 , 利用 SVM-RFE 快速 去 

离散 二 进 制 粒子 群 算法 (binary particle swarm optimization, 掉 部 分 无 关 特征 ， 然 后 以 粒子 群 算法 继续 搜索 最 优 特征 子 集 ， 
BPSO) 是 由 Kennndy 和 EberhartP3 共 同 提出 的 一 种 扩展 粒子 群 。 ”同样 其 参数 的 设置 也 是 难以 确定 ; 文献 [9] 提 出 了 一 种 带 有 高 斯 
优化 方法 ， 常 常 被 被 生物 信息 、 背 包 问 题 和 图 形 图 像 等 领域 广 白 噪声 扰动 的 混合 粒子 群 算法 ， 引 入 自 适 应 调整 种 群 多 样 性 的 
泛 应 用 。 但 是 BPSO 在 特征 选择 过 程 中 容易 陷入 局 部 最 优 值 外 ， 闵 值 ， 使 其 不 易 陷入 局 部 最 优 值 ， 然 而 新 的 约束 条 件 也 使 得 最 
导致 该 算法 不 能 筛选 出 最 佳 特 征 子 集 。 而 降 噪 自 编 码 器 多 值 极 不 稳定 。 
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因此 ， 本 文 将 降 噪 自 编码 器 与 离散 二 进 制 粒子 群 算法 组 合 
ti 化 ， 通 过 DA 的 三 层 网 络 结构 对 特征 进行 非 线 性 映射 ， 使 得 
输入 层 与 输出 层 的 数据 尽 可 能 相似 0%20， 从 而 形成 超 完备 基 ， 
并 利用 BPSO 在 超 完 备 基 上 进行 搜索 ， 直 至 找到 最 优 特征 组 合 
为 止 。 该 算法 不 仅 可 有 效 的 去 除 元 余 特征 ， 同 时 还 能 防止 局 部 
最 优 值 ， 从 而 建立 一 个 适合 中 医药 数据 的 分 析 模 型 。 


1 ”融合 DA 的 离散 二 进 制 粒子 群 算法 〈DA-BPSO) 
模型 构建 


降 噪 自 编 码 器 59 是 结合 鲁 棒 性 和 腐化 输入 对 自 编 码 器 进 
行 修 改 的 方法 。 其 基本 思想 是 先进 行 腐化 处 理 ， 即 将 原始 输入 
矩阵 汪 G,%,4,…%) 里 的 每 个 值 *4=123…) 随即 置 为 0， 使 得 部 分 
数据 的 部 分 特征 丢失 ， 如 匀 =G,0,0.4.,%)， 然 后 将 腐化 后 的 数据 
x 通过 映射 方法 : h09=SWx+B) ,映射 成 一 个 隐 传 层 表达 Y ; 对 
隐 含 层 数据 了 利用 重 构 方法 : 8,0%=5Wy+B)， 重 构成 输出 层 数 
据 z; 通过 反复 迭代 训练 ， 使 得 误差 函数 (XxX,2) 最 小 ， 从 而 尽 
可 能 保证 z 近似 于 Xx。 

离散 二 进 制 粒子 群 算法 采用 二 进 制 形式 的 编码 ， 用 一 组 0 
或 1 的 二 进 制 串 表示 粒子 的 位 置 (代表 解 空 间 的 位 置 )， 根 据 其 
适应 度 函 数值 对 粒子 进行 优 劣 评价 ， 粒 子 的 速度 和 位 置 会 依据 
适应 度 值 进行 调整 ， 从 而 实现 粒子 在 解 空间 中 搜索 最 优 解 。 但 
是 BPSO 在 非 线 性 的 数据 中 进行 寻 优 ,很 容易 陷入 局 部 最 优 值 ， 
所 以 传统 的 BPSO 难以 满足 中 医药 临床 实验 数据 的 特点 ,而 DA 
可 以 有 效 的 去 除 特 征 宛 余 和 解决 非 线 性 等 问题 ， 故 本 文 将 DA 
和 BPSO 方法 结合 ， 提 出 了 一 种 融合 降 噪 自 编码 器 与 BPSO 的 
特征 组 合 方法 ， 这 样 既 可 以 反映 数据 的 本 质 特征 ， 也 可 以 防止 
陷入 局 部 最 优 值 。 

DA-BPSO 方法 先是 在 降 噪 自 编码 器 中 , 结合 概率 分 布 对 原 
始 输入 数据 腐化 处 理 ， 再 将 处 理 后 的 数据 集 进行 非 线 性 映射 与 
重 构 ， 并 对 模型 的 网 络 参 数 通 过 最 小 化 均 方 误差 调 优 操作 ， 使 
得 模型 的 效果 最 好 ， 从 而 形成 一 组 超 完 备 基 ; 然后 利用 BPSO 
在 这 组 超 完备 基 中 寻找 最 优 特征 组 合 。 该 方法 不 仅 可 以 提高 分 
类 器 的 分 类 准确 率 和 降低 元 余 特 征 对 其 的 影响 ， 还 可 以 找到 对 
因 变 量 最 重要 的 一 组 影响 因子 。DA-BPSO 构建 过 程 如 图 1 所 
不 。 


Ll 


| 


图 1 DA-BPSO 结构 


体 步骤 如 下 : 
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a) 数 据 标准 化 预 处 理 ， 原 始 数 据 x= 标准 化 数据 。 


b) 腐 化 操作 ， 先 基于 二 项 分 布 


矩阵 som ， 再 利用 府 


E =E.Binom o 


化 矩阵 对 输入 数据 三 进行 腐化 ， 


9) 映 射 与 重 构 ， 利 


binomial(0-1) 产 生 一 个 腐化 


即 


] Sigmoid 激活 函数 ( 式 (1)) 将 腐化 后 


层 数 据 z 。 


的 数据 5 映射 成 隐 伟 层 数据 Y, 再 将 数据 Y 进行 


[Pal 


sigmoid(5) = L 
l+e 


构 , 得 到 输出 


(1) 


gj) 计算 代价 函数 与 优化 参数 。 利 用 输出 层 数据 z 与 输入 数 


据 E 计 算 代价 函数 XE2z)， 并 利用 代价 函数 的 最 小 化 均 方 误 


差 进行 参数 优化 ， 即 通过 反复 迭代 训练 来 更 新 网 络 中 的 参数 ， 
而 得 到 效果 较 好 的 重 构 数据 ， 形 成 超 完 


使 得 误差 函数 最 小 ， 从 
备 基 。 


最 小 化 均 方 误差 为 
0.0 =agmin Henan) (2) 
UE,z) 的 损失 函数 为 
Lu (ez)= St logz, +(1—e)1log(l—z)] (3) 
权重 更 新 矩阵 为 
WwW 
OL(e, y) 
局 (4) 
OL(e, y) 
B, <¢-b. 0aB 
6) 初 始 化 粒子 的 位 置 与 速度 。 定 义 超 完 备 基 中 的 粒子 数 为 
N, 维度 为 M, 则 粒子 群 2 可 以 表示 为 : 8 = 4b 


( 4 代表 每 个 粒子 的 位 置 )， 粒 子 的 初始 值 采 用 二 项 分 布 随机 


对 粒子 的 初始 速度 随机 初始 在 [0,1] 之 间 。 


缚 计算 适应 度 函 数值 。 对 每 个 粒子 中 被 选中 的 特征 ， 并 埋 


生成 0 或 1; 每 个 粒子 对 应 的 速度 站 定义 为 :站 = ， 


下 


超 完备 基 抽 中 的 数据 ,组 成 新 的 数据 集 , 利 用 分 类 器 进行 分 类 ， 
计算 准确 率 weewac(2) ， 从 而 得 到 每 个 粒子 的 适应 度 函 数值 : 


f(Q)=-(A*accuracy(Q,)+B* 


一 一 
n_ Jeatures(O) 


其 中 : n_ features(Q ) 是 特 条 
A 和 B 是 权重 参数 〈 根 
准确 率 和 特征 子 集 大 小 


(5) 


F 子 集 的 数量 ( 即 每 个 粒子 中 1 的 个 数 )， 
据 不 同 数据 集 进行 调整 ， 使 得 其 在 分 类 


之 间 进 行 折 中 )， 取 值 范 围 在 (0,1) 之 间 。 


8) 记 录 每 个 粒子 的 历史 最 优 适 应 度 函 


数值 (0) ， 以 及 最 优 


适应 度 函 数值 时 对 应 的 个 体 最 佳 位 置 2 = .oa ， 直 至 
记录 全 部 粒子 的 最 优 适应 度 函 数值 f%(@) 和 对 应 的 全 体 最 佳 位 


EQ = 0 ,9 ,9 fo) ， 


hb) 对 每 个 粒子 的 位 


和 速度 进行 更 新 ， 更 新 公式 如 下 : 
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WW 二 mV 十 C 
oy-| 


Sig(v)= 


其 中 : 
跟踪 自 


数 , 4。 和 < 是 通常 设置 在 [1,2] 之 间 ( 经 过 多 次 实验 将 
区 间 的 均匀 分 布 随机 数 ，2: 为 第 i 个 粒子 在 第 * 步 
5 是 均匀 分 布 的 随机 数 ， 


s 和 "是 [0,1] 
的 时 的 取 值 ， 

iD 重复 寻 
组 合 ， 算 法 终止 。 


! 为 迭代 次 数 ， 


2 ”实验 结果 及 分 析 


2.1 实验 数据 说 明 


本 文 的 实验 数据 主要 来 源 于 江西 中 
临床 糖尿 病 数据 和 UCI 数据 自 
Wine Quality 数据 中 有 11 个 特征 ，1600 个 样 


1E( Oh 
Oif (n>Sig(V(t+1) 
1,otherwise 


—Q* J+cm( 0%, -0°) 


1 
l+exp(—v) 


”是 保持 原来 速度 的 系数 ， 称 做 惯 
己 历史 最 优 的 权重 系数 和 粒子 跟踪 群 


性 权重 ; 


(6) 


4 和 <。 是 粒子 
体 最 优 值 的 权 值 系 


其 设 


优 过 程 , 直至 找到 最 优 位 置 , 该 位 置 即 为 最 优 特征 


sig(v) 是 


医药 大 学 重点 实验 室 的 


长 上 的 Wine Quality、CASP。 其 中 
本 ; CASP 有 9 个 


特征 ，45730 个 样本 ， 临 床 糖尿 病 实验 数据 共有 特征 数 16 个 ， 


瘦 )、 入 组 HDLc、 
岛 素 (oh)、 入 组 糖化 血红 蛋白 


样本 数 284 个 ， 其 特征 主要 有 BMI( 指 偏 胖 、 肥 胖 、 
入 组 胆固醇 、 入 组 甘油 三 本 


(TG)、 


正常 和 
入 组 胰 


`、 入 组 收缩 压 、 入 组 空腹 静脉 


糖 、 


黄连 分 组 编号 等 。 部 分 实验 数据 如 表 1 所 示 。 
表 1 临床 糖尿 病 部 分 数据 

BMI HDLc 胆固醇 TG Oh 组 号 
24.4 D132 4.89 1.69 114.33 A 
人 网 1.38 5.02 3.14 56.2 A 
30.8 1.09 5.35 9.91 53.79 A 
30.2 1.19 5.54 .31 81.32 B 
27.1 1.12 5.08 于 43.95 B 
24.6 0.88 了 20.11 152.8 B 
23.2 1.13 6.25 3.78 392,32 x 
21.9 1.6 5.02 0.97 74.96 Cc 


2.2 ”实验 过 程 和 结果 分 析 


原始 数据 的 全 部 特征 


(HDPSO) 搜 索 的 特 


下 组 合 和 
正 组 合 。 采 用 上 述 不 同 策略 对 三 个 数据 集 进 


为 了 验证 DA-BPSO 的 有 效 性 ， 采 用 
(下 面 称 为 原始 特征 ) 与 4 种 策略 进行 比较 ， 策 略 分 别 有 传统 
的 BPSO 搜索 的 特征 组 合 、 混 合 粒子 群 算法 
征 组 合 、 自 适应 离散 粒子 群 算法 (SADPSO) 搜 索 的 特 和 
DA-BPSO 搜索 的 特 4 
行 特 征 分 析 ， 得 出 的 结果 为 : 

a) 临 床 糖 尿 病 数据 。BPSO 选择 策略 后 特征 


HDPSO 选择 策略 后 特征 


数 有 8 个 ， 
数 有 11 个，SADPSO 选择 策略 后 特征 
数 有 8 个 ， 而 DA-BPSO 由 于 


F 进行 DA 操作 时 ， 将 特征 映射 成 


为 2); 


Chi 
疝 籼 奕 ， 等 : ge 
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黄 籼 奕 ， 等 村 征 组 合 方 ; 依依) 天 
30 维 ， 映 射 后 的 特征 数 为 30 个 ， 所 以 其 选择 后 的 特征 数 有 11 
个 ， 如 图 2 所 示 。 

b) 数 据 集 Wine Quality。BPSO 选择 策略 后 特征 数 有 4 个 ， 
HDPSO 选择 策略 后 特征 数 有 7 个 ，SADPSO 选择 策略 后 特征 
数 有 5 个 ,同样 的 由 于 进行 DA 处 理 时 将 特征 映射 成 20 维 , 映 
射 后 的 特征 数 为 20 个 ， 所 以 DA-BPSO 选择 后 的 特征 数 有 12 

几 种 选择 策略 的 结果 

数量 

4 

12 

10 a # 
个 8 i 
个 ， 如 : 、 妆 、5 

4 EF y ba 

0 

3 所 示 。 

0) 数 据 集 CASP。BPSO 选择 策略 后 特征 数 有 2 个 , HDPSO 
选择 策略 后 特征 数 有 5 个 ,SADPSO 选 择 策 略 后 特征 数 有 4 个 ， 
同样 的 由 于 进行 DA 时 将 特征 映射 成 20 维 ， 映射 后 的 特征 数 
为 20 个 ， 所 以 DA-BPSO 选择 策略 后 的 特征 数 有 7 个 ， 如 
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一 图 4 CASP 的 特征 数量 
为 了 进一步 分 析 改 进 算法 的 效果 ， 本 文选 择 以 SVM 作为 
:a 7 分 类 器 ,分 别 以 训练 集 (Train) 和 测试 集 (Test) 的 准确 率 作为 
:。\ :2 比较 ， 其 中 三 个 数据 集 都 以 7:3 的 比例 随机 划分 成 训练 集 和 测 
A, A 试 集 ， 即 7096 构 建 学 习 训练 集 ，30% 做 测试 集 。 由 于 在 特征 选 
2 a 择 的 时 候 , 均 是 每 次 迭代 1000 次 的 最 优 结果 , 因此 为 了 防止 局 
0 部 最 优 值 的 扰动 ， 对 每 种 策略 各 运行 10 次 选择 最 优 的 特征 组 
合 。 比 较 结果 如 表 2 所 示 。 
表 2 原始 特征 与 4 种 策略 的 实验 结果 比较 
原始 特征 BPSO HDPSO SADPSO DA-BPSO 
Train Test Train Test Train Test Train Test Train Test 
Wine Quality 0.5957 0.5267 0.5628 0.5506 0.5533 0.5628 0.5828 0.5742 0.6014 0.5933 
临床 糖尿 病 数 据 0.3600 0.1056 0.3566 0.1227 0.3266 0.1702 0.3433 0.2304 0.3733 0.2978 
CASP 0.7312 0.6415 0.7165 0.6548 0.6849 0.6654 0.7512 0.7054 0.7489 0.6900 
根据 上 表 可 知 ， 采 用 SVM 作为 分 类 器 ， 原 始 特征 的 训练 ee 
集 准 确 率 分 别 为 0.5957、0.3600、0.7312, 测试 集 的 准确 率 分 别 08 Os 06548 06654 2 
为 0.5267、0.1056、0.6415。 为 了 更 直观 的 显示 实验 结果 ， 分 别 06 ,9 0570 0 强 ; 
绘制 了 图 5 和 6， 以 体现 训练 集 和 测试 集 的 准确 率 波动 情况 。 本 
结果 分 析 图 可 知 ， 在 训练 集 上 原始 特征 的 效果 相对 于 BPSO jn 0 i@ 
与 HDPSO 都 要 好 ， 然 而 测试 集 上 就 相对 差 很 多 ， 主 要 原因 就 i 
是 特征 之 间 的 元 余 对 测试 集 分 类 准确 度 的 影响 。 PR STRT5TES 
同时 可 以 发 现 SADPSO 在 减少 了 特征 数量 的 情况 下 , 相 比 Wisy 
HDPSO 在 训练 集 和 测试 集 的 准确 率 都 略 有 所 提升 。 而 DA- 图 6 原始 特征 与 4 种 策略 的 实验 结果 (Test) 
BPSO 在 特征 数量 较 多 时 ， 训 练 集 的 准确 率 分 别 为 0.6014、 3 ”结束语 
0.3733、0.7489, 测试 集 的 准确 率 分 别 为 0.5933、0.2978、0.6900， 和 
相 比 HDPSO、SADPSO 两 种 策略 而 言 ， 虽 然 DA-BPSO 映射 后 本 文 针 对 在 具有 非 线性 特点 的 中 医药 临床 数据 中 ， 传 统 的 
的 特征 数 较 多 ， 但 其 准确 率 都 表现 出 比较 好 的 效果 ， 说 明 改 进 离散 二 进 制 粒子 群 算法 容易 陷入 局 部 最 优 解 ， 导 致 无 法 得 到 最 


的 算法 具有 较 强 的 鲁 棒 性 。 同 时 与 原始 特征 的 准确 率 相 比 较 可 
得 知 , DA-BPSO 的 效果 均 比 划 


集 上 ， 呈 上 升 趋势 《如 图 


要 好 , 特别 是 在 临床 糖尿 病 数据 


6 所 示 )。 综 上 所 述 ， 改进 的 算法 对 具 


有 非 线性 特点 的 中 医药 临床 实验 数据 适应 性 良好 ， 且 能 够 防止 
陷入 局 部 最 优 ， 从 而 得 到 最 佳 特征 子 集 。 
AIN 512 了 
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图 5 原始 特征 与 4 种 策略 的 实验 结果 (Train) 


佳 特征 子 集 的 问题 ， 
组 合 方法 ， 充 分 利 / 


时 进行 


FE 线性 映射 与 
算法 寻找 最 优 特征 


了 降 噪 自 


提出 了 融合 降 噪 自 编码 器 与 BPSO 的 特征 
编码 器 在 构建 模型 时 加 入 噪音 ， 同 
E 构 获取 超 完 备 基 等 
日 合 ， 从 而 可 有 效 的 防 


优点 ， 
上 陷入 


并 结合 BPSO 
局 部 最 优 解 ， 


增强 模型 的 鲁 棒 性 和 泛 化 性 。 通过 在 临床 糖尿 病 数据 和 UCI 数 


YA。 


据 集 的 实验 比较 ， 证 明 该 改进 的 算法 明显 
度 和 非 线 结构 的 表达 ， 是 一 种 适合 于 中 
但 改进 的 算法 也 存在 不 足 之 处 ， 其 


是 高 了 


模型 的 分 类 精 


医药 领域 的 数据 分 析 方 
隐 含 层 的 个 数 会 影响 算 


法 速度 ， 从 而 导致 需要 更 多 的 迭代 次 数 才能 达到 最 优 效 果 。 在 
接 下 来 的 工作 中 ， 将 继续 提升 算法 的 搜索 效率 ， 同 时 在 构建 模 


型 时 如 何 保证 相关 参数 的 合 至 
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